
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。
基于 Diffusion Transformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和 3D「一网打尽」。
传统的 3D 重建算法需要不同视角拍摄的多张图片作为输入从而重建出 3D 场景。近年来,有相当多的工作尝试从单张图片构建 3D 场景。然而,绝大多数此类工作都依赖生成式模型(如 Stable Diffusion),换句话说,此类工作仍然需要通过预训练的生成式模型推理场景中的 3D 信息。
扩散模型凭借其在图像生成方面的出色表现,开启了生成式模型的新纪元。诸如 Stable Diffusion,DALLE,Imagen,SORA 等大模型如雨后春笋般涌现,进一步丰富了生成式 AI 的应用前景。然而,当前的扩散模型在理论上并非完美,鲜有研究关注到采样时间端点处未定义的奇点问题。此外,奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。
内部核心员工出走频繁,外部投资者不断丧失信心,成立于 2019 年的 AI 初创公司 Stability AI 还能推出伟大的产品吗?
3D 生成领域迎来新的「SOTA 级选手」,支持商用和非商用。Stability AI 的大模型家族来了一位新成员。昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了 3D 视频生成大模型「Stable Video 3D」(简称 SV3D)。
2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。
,Stability AI 推出了新一代图像合成模型 Stable Diffusion XL Turbo,引发了一片叫好。人们纷纷表示,图像到文本生成从来没有这么轻松。
Stability AI 的视频生成模型看来效果不错。AI 画图的著名公司 Stability AI,终于入局 AI 生成视频了。本周二,基于 Stable Diffusion 的视频生成模型 Stable Video Diffusion 来了,AI 社区马上开始了热议。
在 Microsoft Ignite 开发者大会上,英特尔和微软宣布将合作对英特尔 Arc 图形解决方案的 DirectML 进行优化。结果表明,英特尔更新 Arc Alchemist 驱动程序后,在 AI 图像生成器 Stable Diffusion 中实现了 2.7 倍的性能提升。
Stability AI是一家人工智能 (AI) 初创公司,因其 Stable Diffusion 图像生成软件而闻名,据报道已筹集约 5000 万美元融资。